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Beschreibung 

Verfahren zur Bildung und/oder Aktualisierung von Worterbuchern 
zum automatischen Adreftlesen 

5 

Die Erfindung betrifft ein Verfahren zur Bildung und/oder Aktua- 
lisierung von Worterbuchern zum Adrefilesen. 

Adrefilesesysteme benotigen Inf ormationen iiber Inhalt und Syntax 
10 von Adressen, urn die er f orderlichen Inf ormationen wie Stadt, 

Postleitzahl, Vorname und Nachname, etc. extrahieren zu konnen. 
Der zulassige Inhalt einzelner Adreftelemente wird mit einem 
Worterbuch (Liste von zulassigen Zeichenketten) beschrieben, das 
nach dem Stand der Technik aus vorliegenden Inf ormat ionsquellen 
15 aufgebaut wird, wie z.B. aus einem postalischen Worterbuch oder 
aus einer Mitarbeiterliste einer Firma. Die Anwendungsdomane 
andert sich jedoch mit der Zeit, so daft das zu Beginn erstellte 
Worterbuch nicht mehr alle vorkommenden Inhalte vollstandig 
umfaftt. Vor allem bei der Anwendung eines Lesesystems zur inner- 
20 betrieblichen Postverteilung ist die Anderung des Wortvorrats 

betrachtlich: Mitarbeiter verlassen die Firma, neue Mitarbeiter 
kommen hinzu, Mitarbeiter wechseln die Abteilung oder Nachnamen 
andern sich aufgrund von Heirat, etc. So fehlen im Worterbuch 
Eintrage und es gibt Eintrage, die nicht mehr gultig sind. Je 
deutlicher der aktuell verwendete Wortvorrat vom Lexikon ab- 
weicht, desto mehr sinkt die Er kennungsleistung des Lesesystems. 

Diese Anderungen muftten bisher in bestimmten Zeitabstanden 

manyeXJL in difi Wort~f;rbiir:hpr fihprfragpn wprden, sn liafi rijp gp- 

30 schilderten Nachteile auftraten. 

Aufgabe der Erfindung ist es, ein Worterbuch zum Adreftlesen 
automatisch zu bilden und/oder automatisch zu aktualisieren . 



35 



Erf indungsgemaft wird die Aufgabe durch die Merkmale des Anspru- 
ches 1 gelost. Dabei wird von dem Gedanken ausgegangen, die 
Ergebnisse der aktuellen Leseprozesse zwischenzuspeichern, 
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auszuwerten und zum automatischen Aufbau oder zur Aktualisierung 
eines Worterbuches zu nutzen. Beim Zwischenspeichern erfolgt 
eine Kennzeichnung, ob die jeweilige Adresse erfolgreich gelesen 
wurde oder ob sie zuriickgewiesen wurde. Soil ein Wdrterbuch neu 
erstellt werden oder sollen in das vorhandene Worterbuch neue 
Adressaten aufgenommen werden, so werden die zuruckgewiesenen 
Leseergebnisse herangezogen . 

Die Worterbucher konnen einzelne Worter, z.B. Nachnamen und/oder 
zusammenhangende Wortgruppen mit n Wortern, z.B. Vor- und Nach- 
namen oder Vor- und Nachnamen und Straflennamen enthalten, wobei 
die Worter sowohl direkt nebeneinander (Abstand m=0) liegen 
auch durch m Worter beabstandet sein konnen. 



Durch die Bildung von Klassen von Wortern oder Wortergruppen, 
die ein festgelegtes Mindestahnlichkeitsmaft zueinander besitzen, 
und die Aufnahme mindestens des Reprasentanten in das oder die 
Worterbucher der zugeordneten Adreftbereiche , ist ein automati- 
scher Aufbau eines Worterbuches bzw. eine automatische Aktuali- 
sierung des Worterbuches infolge neuer Adressaten oder von 
Anderungen bei den Adressaten moglich. 



Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteran- 
spruchen beschrieben. 

Zur Klassenbildung ist es vorteilhaft, eine Liste aller Wor- 
ter /Wortgruppen der zuruckgewiesenen Leseergebnisse zu erstel- 
len, die nach der Haufigkeit der Worter/Wortgruppen sortiert 

■ ist ■ n^nn i.H rH, hngi nnflnH mif H^m hanfirjct-pn M^rf /Mr>rtr f rnppp - 

das Ahnlichkeitsmaft mit alien iibrigen Wortern/Wortgruppen be- 
stimmt und in eine Ahnlichkeitsliste eingetragen. Alle Wor- 
ter/Wortgruppen in der Ahnlichkeitsliste mit einem Ahnlichkeits- 
mali uber einer festgelegten Schwelle werden anschlieUend dem 
aktuellen Wort /Wortgruppe als Klasse zugeordnet. Danach werden 
die Worter/Wortgruppen der gebildeten Klasse aus der Haufig- 
keitsliste entfernt. 
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3 



Die Reprasentanten der jeweiligen Klasse von Wortern oder Wort- 
gruppen der zwischengespeicherten und zuriickgewiesenen Leseer- 
gebnisse konnen durch die kurzesten oder haufigsten Worter oder 
Wortgruppen gebildet werden. 

5 

Zur Erkennung von Adressen im Worterbuch, die geandert oder 
entfernt werden mussen, ist es vorteilhaft, die eindeutig gele- 
senen Adressen statistisch auszuwerten. Tritt eine plotzliche 
Anderung der Haufigkeit der Worter und/oder Wortgruppen uber 
10 eine bestimmte Schwelle hinaus auf und dauert sie eine festge- 
legte Zeit an, so werden diese Worter/Wortgruppen aus dem Wor- 
terbuch entfernt. 

Urn zu vermeiden, daft irrelevante Worter der Leseergebnisse in 
15 das Worterbuch auf genommen werden, konnen diese durch Vergleich 
mit in einer speziellen Datei fur irrelevante Worter gespeicher- 
ten Wortern ermittelt werden. 

Vorteilhaft in diesem Zusammenhang ist es auch, kurze Worter 
20 ohne Abkurzungspunkt mit weniger als p Buchstaben als irrelevant 
nicht ins Worterbuch auf zunehmen . Urn die Adrefiinterpretation mit 
Hilfe der Worterbucher moglichst detailliert durchzuf uhren, ist 
es vorteilhaft, neben den Reprasentanten auch die Worter 
und/oder Wortgruppen der dazugehorenden Klassen mit den Ahnlich- 
keitsmaften und Haufigkeiten auf zunehmen. 

In einer weiteren vorteilhaf ten Ausgestaltung konnen zusammenge- 
horende Wortgruppen mit n Wortern, die untereinander einen 
Abstand von m Wnrfprn hah P n r prmiffplt- UlAJZd&A, a ^Ham anggohanH 

30 vom jeweiligen, fur das Worterbuch ermittelten Einzelwort die 
Adressen mit Fenstern der Breite von n+m Wortern durchsucht 
werden. Nachdem die weiteren n-1 Einzelworter mit den Abstanden 
von m Wortern untereinander ermittelt wurden, erfolgt die Auf- 
nahme dieser Wortgruppe mit ihren Haufigkeiten in das entspre- 

35 chende Worterbuch. 
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Vorteilhaft ist es auch, das Ahnlichkeitsmafl mit dem Le- 
venshtein-Verf ahren (siehe „A Method for the Correction of 
Garbled Words, Based on the Levenshtein Metric", K. Okuda, E. 
Tanaka, T. Kasai, IEEE Transactions on Computers, Vol. c-25, No. 
5 2, February 1976) zu ermitteln. 




Es kann auch vorteilhaft sein, die ermittelten Worterbuchaktua- 
lisierungen an einem Videocodierplatz zu kategorisieren und 
bestatigen zu lassen oder die Neueintragungen ins Worterbuch 

10 zusatzlich vor ihrer Obernahme in die entsprechende Kategorie 

mit den Inhalten einer Datei- zu vergleichen, in der charakteri- 
stische allgemeingiiltige Namen oder wenigstens Zeichenstrings, 
bezogen auf die jeweilige Kategorie (Vorname, Nachname, Abt 
lung) gespeichert sind. 

15 

Anschlieftend wird die Erfindung in einem Ausf uhrungsbeispiel 
anhand der Zeichnung naher erlautert. Ziel hierbei ist, bisher 
unbekannte Nachnamen (n=l) oder Paare unbekannter Vor- und 
Nachnamen (n=2) oder Nach- und/oder Vor- und Nachnamen und 
20 Abteilungsnamen von Mitarbeitern einer Firma und/oder entspre- 
chende nicht mehr gultige Namen bzw. Namenskombinationen zu 
ermitteln und Worterbuchanderungen durchzuf uhren . 




Dabei zeigen 

25 

FIG 1 eine Ablauf struktur eines Monitorprozesses zu 

Uberwachung und Steuerung der Aktualisierung des 
Worterbuches 

FIG 2 & i ae Ablauf struktur zur Esroit t lung und Kannsftich- 

30 nung irrelevanter Worter 

FIG 3 eine Ablauf struktur zur Ermittlung bisher unbe- 

kannter Einzelworter (n=l) (Nachnamen) 
FIG 4 eine Ablauf struktur zur Ermittlung bisher unbe- 

kannter Wortgruppen, ausgehend von den Einzelwor- 
35 tern 

FIG 5 eine Ablauf struktur zur Aktualisierung der Worter- 

bucher unter Berucksichtigung der Wort kategorien 
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Die Wortvorschlage werden aus den Erkennungsergebnissen automa- 
tisch generiert, die das Lesesystem im taglichen Betrieb fur 
jedes Sendungsbild berechnet . Die Erkennungsergebnisse fur jedes 
Sendungsbild umfassen unterschiedliche geometrische Objekte 
5 (Layoutobj ekte) , wie Textblocke, Zeilen, Worter und Zeichen, und 
deren Relationen untereinander , also, welche Zeilen zu welchem 
Textblock gehoren, welche Worter in welchen Zeilen liegen, etc. 
Fur jedes Einzel zeichenbild erzeugt das Lesesystem eine Liste 
von moglichen Zeichenbedeutungen . Daruberhinaus berechnet das 
10 Lesesystem fur jedes Layoutobjekt seine Lage im Sendungsbild und 
dessen geometrischen Ausmafie . 

Zum Aktualisieren oder auch Lernen von Worterbucheintragen wird 
die Menge der bearbeiteten Sendungen in zwei Teilmengen ge- 
trennt, in die Menge der vom Lesesystem automat isch gelesenen 
15 (aber nicht notwendigerweise korrekt gelesenen) und die Menge 

der zuruckgewiesenen Sendungen. Die Menge der automatisch gele- 
senen Sendungen dient zum Ermitteln von Worterbucheintragen, die 
nicht mehr gultig sind; aus der Menge der zuriickgewiesenen 
Sendungen werden neue Worterbucheintrage abgeleitet. 

20 

Das beispielhaf te System besteht aus funf Modulen: einen Moni- 
torprozeB, einer Aufbereitung der Erkennungsergebnisse (Vorver- 
arbeitung) , zweier Worterbuchgenerierungsver f ahren und einem 
Vorschlagsadministrator . 

Der Monitorprozeft gemaft FIG 1 uberwacht und steuert das Worter- 
buchlernen. Die Erkennungsergebnisse 21 fur jedes Sendungsbild 
werden zusammen mit einer Kennung fur „erf olgreich gelesen" oder 
„zuruckgewiesen" vom Leser an den Monitor ubergeben. Zusatzliche 

Informatinnpn 7nr ^PnHnnggart — (Rri pf , — nrnflhri a f , — HauspQStformu- 

30 lar) und weitere Merkmale zu den einzelnen Objekten der Erken- 
nungsergebnisse, wie ROI (Region of Interest), Zeilen- und Wort- 
Hypothesen, Zerlegungsalternativen und Schrif t zeichen- 
Erkennungsergebnisse, konnen ebenfalls ubergeben werden. Diese 
Erkennungsergebnisse werden im Monitor in einem Zwischenspei- 
35 cher 22 gespeichert, bis eine genugend grofte Menge an Daten 

angefallen ist (z.B. nach 20.000 Sendungen oder nach einer Woche 
Betrieb) . 
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Im einfachsten Fall wird lediglich die erste Alternative der 
Zeichenerkennungsergebnisse zusammen mit dem besten Segmentier- 
pfad im Zwischenspeicher gespeichert. Beispielsweise konnte der 
Inhalt f olgendermaften aussehen: 



<Erkennungsergebnisse> 

1017921 PMD 55 
10 MR. A1FRED C SCHMIDI 

EXCCU1LVE DIRCC10R, 0PCRA1IONS 

DCVCIOPMENT 

MyComp, INC 

1 MyStreet 
15 MyCity, 12345 



<Kennung> 
erkannt 




P011Y O/BRIEN 

MANAGER, COMMUNITY AFFAIRS 
20 MyComp INC 
1 MyStreet 
MyCity, 12345 



zurtlckgewiesen, 
nicht im Worterbuch 



25 



POILY OBRIEN 

MANAGER, COMMUNITY AFFAIRS 
MyComp, INC 
1 MyStreet 

Myrii-y, 



zuruckgewiesen, 
nicht im Worterbuc 




30 

MS ME1INDA DUCKSWORTH 
MyComp, INC 
MAI1 CODE 63-33 
1 MyStreet 
35 MyCity, 12345 



erkannt 
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7 



**********AURO**MIXED AADC 4 60 



zuruckgewiesen, nicht 
im Worterbuch 



10 




MIKO SCHWARTZ 

0 AND T 2 6-00 

1 MyStreet 
MyCity, 12345 



Liegen genugend Ergebnisse vor, werden die zuruckgewiesenen 
Erkennungsergebnisse an eine Auf bereitungseinheit 30 liberge- 
ben und zu den beiden Teilprozessen zum Worterbuchlernen fur 
Einzelworte 50 und Wortgruppen 60 weitergeleitet . Im Falle 
einer er f olgreichen automatischen Erkennung werden die Ergeb- 
nisse an ein Statistikmodul ubergeben 40. Wenn alle Sendungen 
verarbeitet worden sind, werden die Wort- und Wortgruppenli- 
sten 41 des Statistikmoduls und der Worterbuchlernprozesse 
51, 61 gesammelt und mit einer geeigneten grafischen Oberfla- 
che einer Bedienkraft zur Bestatigung vorgelegt. 

In der Auf bereitungseinheit 30 werden irrelevante Worter in 
den zuriickgewiesenen Erkennungsergebnissen gekennzeichnet , 
die in der nachf olgenden Textanalyse nicht berucksichtigt 
werden (vgl. FIG 2). Diese Worter werden als nicht relevant 
markiert aber nicht geloscht, da die Wortnachbarschaf t fur 
den nachf olgenden Worterbuchauf bau wichtig ist. 

im vertanrensschritt Markieren irrelevanter Worter 31, werden 
aus der Menge der Worthypothesen kurze Worter markiert, bei- 
spielsweise diejenigen, die weniger als 4 Buchstaben lang 
sind und gleichzeitig keinen Abkur zungspunkt besitzen, und 
solche die zu weniger als 50% aus alphanumerischen Zeichen 
bestehen. Weiterhin werden solche Worter markiert, die in ei- 
ner speziellen Datei 32 enthalten sind, die fur diese Anwen- 
dung haufige, aber irrelevante Worter enthalt. Bei der Anwen- 
dung der innerbetrieblichen Postverteilung konnen beispiels- 



GR 99 P 2291 




weise der Firmenname, Stadtename, Straliennarae, Postfachbe- 
zeichnung, etc., in diesem speziellen Lexikon enthalten sein. 
Die Ergebnisse der Auf bereitung werden in einen Zwischenspei- 
cher 33 zuriickgeschrieben . 

Nach der Vorverarbeitung sehen die Ergebnisse f olgendermafien 
aus : 



10 <title MR> <first-name ALFRED> <last-name SCHMID> 
<role EXECUTIVE DIRECTOR OPERATIONS> 

P011Y O/BRIEN 

MANAGER, COMMUNITY AFFAIRS 
15 <irrelevant MyComp, INC> 
<irrelevant 1 MyStreet> 

<irrelevant MyCity> <irrelevant 12345> 




P01LY OBRIEN 
20 MANAGER, COMMUNITY AFFAIRS 
<irrelevant MyComp, INO 
<irrelevant 1 MyStreet> 

<irrelevant MyCity> <irrelevant 12345> 



25 <title MS> <first-name MELINDA> <last-name DUCKSWORTH> 




<non-alpha **********AUR0**MIXED> AADC <short 460> 
MIKO SCHWARTZ 

^shuil QV <a>huj.L AND> <aliuiL T> 2G 00 

30 <irrelevant MyComp, INO 
<irrelevant 1 MyStreet> 

<irrelevant MyCity> <irrelevant 12345> 



35 Aus den auf bereiteten zuruckgewiesenen Er kennungsergebnissen 
wird gemafi FIG 3 im ersten Schritt 52 eine Hauf igkeitsliste 
FL 53 aller darin vorkommender Worter erstellt, nach abstei- 
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gender Haufigkeit sortiert und in einen Zwischenspeicher ab- 
gelegt. Fur obiges Beispiel konnte die Hauf igkeitsliste FL 53 
f olgendermafien aussehen: 



10 




15 



AFFAIRS 


37 


MANAGER 


37 


COMMUNITY 


37 


OBRIEN 


20 


O/BRIEN 


17 


SCHWARTZ 


15 


MIKO 


12 


POLLY 


10 


P011Y 


8 


PAULA 


8 


POILY 


5 


MIKO 


3 



Aus dieser Liste wird schrittweise ein Worterbuch Wl relevan- 
ter Worter 51 aufgebaut. Zu jedem Wort in der Hauf igkeitsli- 
ste FL 53 wird der Abstand d zu alien Wortern in dieser Hau- 
f igkeitsliste bestimmt. Ein Verfahren zur Messung des Abstan- 
des zwischen zwei Zeichenketten ist das Levenshtein- 
Verfahren, das den minimalen Abstand zweier Zeichenketten be- 
rechnet, bezogen auf 3 Kostenarten, auf Kosten einer Erset- 
zung eines Zeichens, einer Einfiige- und einer Lbschoperation . 

Zur Boroohnung von d konncn neben d e r B e iilnduludLLfc! wtdiLbiiu 

Merkmale der Erkennungsergebnisse verwendet werden, bei- 
spielsweise die Zeichenalternativen, die Segmentieralternati- 
ven, etc. 

Das erste Wort in der Hauf igkeitsliste FL 53 (das aktuell 
35 haufigste) wird in das Worterbuch Wl 51 ubernommen und aus 
der Hauf igkeitsliste FL 53 geloscht 54. Alle Worter aus der 
Hauf igkeitsliste FL 53 mit einem Abstand kleiner einer fest- 
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gelegten Schwelle th d werden dem aktuellen Wort im Worter- 
buch Wl 51 mit ihrer Haufigkeit zugeordnet 55, 56. Gleichzei- 
tig werden diese Worter in der Hauf igkeitsliste FL 53 ge- 
loscht. Die Iteration endet, wenn die Hauf igkeitsliste FL 53 
5 leer ist. Damit werden Wortklassen gebildet, die untereinan- 
der einen Abstand d nicht uberschreiten, bzw. ein entspre- 
chendes Ahnlichkeitsmaft nicht unterschreiten . 

Wenn alle Worter verarbeitet sind, besteht das Worter- 
10 buch Wl 51 aus einer Menge von Wortklassen. Das kiirzeste Wort 
einer Wortklasse wird als Reprasentant der Gruppe bezeichnet. 
Jede Wortklasse enthalt Worter, die einander ahnlich sind, 
mit den dazugehorigen Haufigkeiten und Abstanden zum Klasse 
reprasehtanten. Die Reprasentanten der Wortklassen im Worte 
15 buch Wl 51, und damit auch die Wortklassen, werden nach ab- 

steigender Haufigkeit sortiert 57. Die Haufigkeit einer Wort- 
klasse setzt sich aus der Haufigkeit des Reprasentanten und 
der Haufigkeiten der Elemente der Wortklasse zusammen. Wort- 
klassen, deren Haufigkeit eine gewisse Schwelle unterschrei- 
20 ten, werden aus dem Worterbuch Wl 51 geloscht . Aus obiger Li- 
ste wird folglich folgendes Worterbuch Wl 51 gebildet: 



<Wortklasse> <Haufigkeit> <Abstand> <fl| 

25 ... 

AFFAIRS 37 
MANAGER 37 
COMMUNITY 37 
QBftiCM 3-2 

30 O/BRIEN 17 (d = 1) 

POLLY 23 

POllY 8 (d = 2) 

P01LY 5 (d = 1) 

SCHWARTZ 15 

35 MIKO 15 

MIKO 3 (d = 1) 

PAULA 8 
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Die Bildung von Reprasentanten kann je nach Anwendung mit 
5 weiterem Wissen unterstutzt werden. So kann ein Wort entweder 
auf eine Zahl oder auf eine Alpha-Folge abgebildet werden, 
indem OCR-Erset zungstabellen verwendet werden, die austausch- 
bare Zeichenpaare definieren, wie 1 - L, 0 - 0, 2 - Z, 6 - G, 
etc. Wenn daruberhinaus zu erlernenden Wortklassen Alternati- 
10 venmengen bekannt sind - fur Vornamen beispielsweise Spitzna- 
men, wie Paula-Polly, Thomas-Tom, etc., kann auch diese Er- 
setzung vorgenommen werden. Beide Schritte konnen auf das 
Worterbuch Wl 51 angewendet werden, was zu einer weiteren 
Verschmelzung von Wortklassen f uhrt . 
15 

Abschlieflend werden in den Er kennungsergebnissen alle Worter, 
die im Worterbuch Wl 51 vorkommen, markiert und durch ihren 
Reprasentanten erganzt. Diese Worter werden im folgenden mit 
Wl-W6rter bezeichnet. 

20 

An der Spitze vom Worterbuch Wl 51 stehen nun die haufigsten, 
bisher unbekannten Wortformen und die Wortklassen enthalten 
Schreibvarianten davon. So werden in der Anwendung der inner- 
betrieblichen Postverteilung bisher unbekannte Nach- und Vor- 
namen und Telle von Abteilungsbezeichnungen im Worter- 
buch Wl 51 stehen. Daruberhinaus enthalten deren Wortklassen 
Schreibvarianten oder Varianten, die aufgrund der Eigenschaf- 
ten des Lesesystems entstanden sind. 



30 Ausgehend von den Reprasentanten der Wortklassen im Worter- 
buch Wl 51, die in den Er kennungsergebnissen als solche mar- 
kiert sind, werden im nachsten Schritt nach FIG 4 Wortgrup- 
pen der Lange 2 bis n bestimmt, indem die Nachbarschaf ten von 
Wl-W6rtern der Erkennungsergebnisse 62 untersucht werden. Fur 

35 jedes Wl-Wort wird dazu die rechte Nachbarschaf t in einem 
Fenster der Breite k <= n durchsucht, ob darin weitere Wl- 
Worter sind. n-1 zunachst leere Worterbucher werden in einem 
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Zwischenspeicher angelegt and Schritt fur Schritt gefiillt. 
Ein n-Tupel wird dann in einen Wortgruppen-Zwischenspeicher 
aufgenommen 53, wenn n Wl-W6rter gefunden worden sind und we- 
niger als m weitere nicht Wl-Worter zwischen diesen n liegen. 
5 Wie beim Worterbuch Wl 51, wird auch hier die Auf tretenshau- 
figkeit der einzelnen Wortgruppen der Lange n gespeichert. 



Der Wahl der Werte von m und n hangt von" der konkreten Anwen 
dung ab. Fur Werte n > 4 sind bei der Anwendung Adreftlesen 

10 keine signifikant haufigen Eintrage mehr zu erwarten. m = 0 
bedeutet, daft alle n Wl-Worter direkt auf einanderf olgen . Ge- 
rade bei Paaren von Vornamen und Nachnamen kann j edoch ein 
zweiter Vorname hin und wieder die direkte Auf einanderf olge 
unterbrechen, genauso wie Segmentierf ehler der Lesemaschine 

15 vermeintliche Worthypothesen erzeugen konnen und damit eine 

direkte Auf einanderf olge verhindern. Fur die beschriebene An- 
wendung sind folglich m=l und n=3 geeignete Werte. 
In diesem Schritt werden folglich aus dem Wortgruppen- 
Zwischenspeicher n-1 Worterbucher Wn 61 generiert, die haufi- 

20 ge Wortsequenzen mit ihren Haufigkeiten fur Paare, Triplets, 
etc. bis zu n-Tupel enthalten. In jedem Worterbuch Wn 61 wer- 
den die Haufigkeiten der n-Tupel mit den Haufigkeiten der Wl- 
Worter der n-Tupel zu einer Maftzahl verrechnet . Jedes Worter- 
buch Wn 61 wird nach absteigenden Maftzahlen sortiert, so daft 

25 wieder die signif ikantesten Wortgruppen am Anfang eines jede^ 
Worterbuches Wn stehen 54 . 

Fur obiges Beispiel sieht das Worterbuch W2 f olgendermaften 



m 



30 W2 



COMMUNITY AFFAIRS 37 

MANAGER COMMUNITY 37 

POLLY OBRIEN 23 

35 MIKO SCHWARTZ 15 

PAULA OBRIEN 8 
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Das Worterbuch W3 hat 3 Eintrage, vorausgesetzt, daft der Name 
POLLY OBRIEN stets mit der Bezeichnung MANAGER COMMUNITY 
AFFAIRS kombiniert vorkommt und ein Zeilenumbruch in einem n- 
5 Tupel erlaubt ist.: 





W3 



MANAGER COMMUNITY AFFAIRS 37 
10 POLLY OBRIEN MANAGER 23 
OBRIEN MANAGER COMMUNITY 23 



Wie beschrieben werden nun die Wortvorschlage der Worterbu- 
15 cher Wn 61 (W2, W3, etc) entsprechend FIG 5 einem Operator 

zur Validierung vorgelegt. Durch Wissen uber die zu erlernen- 
den Worteinheiten 72 ist es an dieser Stelle moglich, Eintra- 
ge in den Worterbiichern Wl, W2, . . Wn 51, 61 semantisch zu 
kategorisieren 71. So lassen sich in dieser Anwendung Eintra- 
20 ge der semantischen Klasse <Name> zuordnen, indem in allge- 
meingultigen Vornamenslisten nachgeschlagen wird. Ahnliches 
gilt fur die Semantikklasse <Abteilung>, die sich aus Schlus- 
selwdrtern wie Department ableiten lafit. 

Dieser Vorgang ist selbstverstandlich auch automatisch ohne 
Operator durch Vergleich mit den Eintragen dieser Listen aus- 
zufuhren . 

Zu erfolgreich verteilten Sendungen sind die dazu erforderli- 

Chen Adreftelemgntfi tjAfnnHp>n wnrHpn nnH Q-inH 3 1q ^nlrhp i r> Hon 

30 Erkennungsergebnissen gekennzeichnet . Wenn beispielsweise in 
der Anwendung der innerbetrieblichen Postverteilung Nachnamen 
und Vornamen erfolgreich gelesen worden sind, werden diese 
Ergebnisse in einer Statistik erfafit; insbesondere wird die 
Haufigkeit der extrahierten Worter, Paare, im allgemeinen von 

35 n-Tupeln, uber definierte Zeitabschnitte td, z.B. fur eine 

Woche, gespeichert, wobei die Sendungsart berucksichtigt wer- 
den kann. Als Ergebnis erhalt man eine Verteilung der zu ex- 



GR 99 P 2291 

trahierenden Adreftelemente fur eine Folge von Zeitabschnit- 
ten: 



5 Zeitpunkt 1 

MELINDA DUCKSWORTH 123 
ALFRED SCHMID 67 



10 



15 



20 



Zeitpunkt 2 

MELINDA DUCKSWORTH 1 
ALFRED SCHMID 85 



Zeitpunkt 3. 

MELINDA DUCKSWORTH 2 
ALFRED SCHMID 72 




Aus der so ermittelten Verteilung la/it sich ableiten, ob Wor 
terbucheintrage geloscht werden sollen: Die Eintrage werden 
in eine Liste zum Entfernen aus dem Worterbuch eingefugt, 
wenn deren Haufigkeit sich von td± zu tdi+i abrupt verringert 
25 und auf diesem Niveau in auf einanderf olgenden Zeitabschnitte! 
td i+k bleibt (z.B. k = 4). So wird im obigen Beispiel die Per 
son MELINDA DUCKSWORTH im Worterbuch geloscht. Dieser Ablauf 
kann zusatzlich auch uber einen Bestat igungsvorgang gefuhrt 
weidbii . 

30 




35 
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Patentanspruche 

1. Verfahren zur Bildung und/oder Aktualisierung von Worter- 
buchern zum automatischen Adreftlesen, 

gekennzeichnet durch die Schritte: 

- Zwischenspeicherung der vom OCR-Leser erzielten Leseergeb- 
nisse der Adressen einer vereinbarten Anzahl von Sendungsbil- 
dern oder innerhalb einer vereinbarten Zeitspanne gelesener 
Sendungsbilder , unterteilt in eindeutig gelesene Ergebnisse 
mit einer Ubereinstimmung mit einem Worterbucheintrag und in 
zuriickgewiesene Leseergebnisse ohne Ubereinstimmung mit einem 
Worterbucheintrag, 

- Bildung von Klassen von Wortern mit da zugehorenden Repra- 
sentanten oder zusammengehorenden Wortgruppen der zwischenge- 
speicherten und zuruckgewiesenen Leseergebnisse, bestehend 
jeweils aus n Adreliw6rtern,n= 1,2,... a, mit den Wortabstanden 
m, m= 0,1,... b, die bezogen auf jeweils einen bestimmten n- 
und m-Wert untereinander ein bestimmtes Ahnlichkeitsma/J nicht 
unterschreiten, 

- Aufnahme mindestens der Reprasentanten derjenigen Klassen, 
deren Haufigkeit einen festgelegten Wert uberschreiten, in 
das oder die Worterbucher der zugeordneten Adreflbereiche . 

2. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, dafi 

- zur Klassenbildung eine Hauf igkeitsliste aller vorkommenden 
Worter oder Wortgruppen der zuruckgewiesenen Leseergebnisse, 
nach deren Haufigkeit sortiert, erstellt wird, 

- ZU -jedem Wort nHpr j<=>H^r Mnrhgmppp hoginnonH mih Ham h Z n - 

30 figsten Wort oder der haufigsten Wortgruppe, das Ahnlich- 

keitsmaft mit alien ubrigen Wortern oder Wortgruppen bestimmt 
und in eine Ahnlichkeitsliste eingetragen wird, 

- alle Worter oder Wortgruppen in der Ahnlichkeitsliste mit 
einem Ahnlichkeitsmaft uber einer festgelegten Schwelle dem 

35 aktuellen Wort oder der aktuellen Wortgruppe als Klasse zuge- 
ordnet werden, 
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10 



- anschlieftend die Worter oder Wortgruppen der jeweils gebil- 
deten Klasse aus der Hauf igkeitsliste entfernt werden. 

3. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daft 

der Reprasentant der jeweiligen Klasse von Wortern oder Wort- 
gruppen der zwischengespeicherten und zuriickgewiesenen Le- 
seergebnisse durch das/die kurzeste oder haufigste Wort oder 
Wortgruppe gebildet wird. 



4. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daft 

die zeitliche Haufigkeit der Worter oder Wortgruppen der eir 
deutig gelesenen Adressen statistisch dahingehend ausgewerte 
15 werden, daft bei deren plotzlicher und iiber einen festgelegten 
Zeitraum andauernder Verringerung uber eine festgelegte 
Schwelle die jeweiligen eingetragenen Worter oder Wortgruppen 
aus dem Worterbuch entfernt werden. 

20 5. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daft 

irrelevante Worter der Leseergebnisse durch Vergleich mit in 
einer speziellen Datei gespeicherten Wortern ermittelt und 
nicht in das Worterbuch aufgenommen werden. 

25 

6. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, daft 

kurze Worter ohne Abkurzungspunkt mit weniger als p Buchsta- 
ben nicht in dao Wortorbuch auf gonommon wordony 

30 

7. Verfahren nach Anspruch 1, dadurch gekenn- 
z e i chnet, daft 

in das Worterbuch neben den Reprasentanten auch die Worter 
und/oder Wortgruppen der dazugehorenden Klassen mit den Ahn- 
35 lichkeitsmaften und Haufigkeiten eingetragen werden. 
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8. Verfahren nach einem der Anspruche 1 und 2, dadurch 
gekenn zeichnet, dafl 

fur Wortergruppen mit n Wortern, n>l, wobei die Worter unter- 
einander einen Abstand von m Wortern, m>=0, haben, ausgehend 
5 vom jeweiligen, fur das Worterbuch ermittelten Einzelwort die 
Adressen mit Fenstern der Breite von n+m Wortern durchsucht 
werden und beim Finden von weiteren n-1 fur das Worterbuch 
ermittelten Einzelwbrtern in den festgelegten Abstanden m un- 
tereinander diese gefundenen Wortgruppen mit deren Haufigkei- 
10 ten in das entsprechende Worterbuch ubernommen werden. 




9. Verfahren nach einem der Anspruche 1,2,7,8, dadurch 
gekennzeichnet, daft 

das Ahnlichkeitsmaft zwischen den Wortern mit dem Levenshtein- 



15 Verfahren ermittelt wird. 

10. Verfahren nach einem der Anspruche 1 bis 9, dadurch 
gekennzeichnet, dafi 

die zu entfernenden Worterbucheintragungen und die Neueintra- 
20 gungen ins Worterbuch an einem Videocodierplat z angezeigt, 
kategorisiert und bestatigt werden. 



11. Verfahren nach einem der Anspruche 1 bis 9, dadurch 
I gekennzeichnet, daft 

^tfjjte die ins Worterbuch einzutragenden Worter und/oder Wortgruppen 

V V vor deren Eintragung mit den Inhalten einer Datei verglichen 
werden, in der fur die jeweilige Worterbuchkategorie charak- 
teristische, allgemeingultige Namen oder wenigstens Zeichen- 

strings gespeichert sind, und bei Ubereinstimmung- in ri^s pnf- 

30 sprechende Worterbuch ubertragen werden. 
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Zusammenfassung 

Verfahren zur Bildung und/oder Aktualisierung von Worterbii- 
chern zum automatischen Adreftlesen 

5 

Es werden die vom OCR-Leser erzielten Leseergebnisse einer 
vereinbarten Anzahl von Sendungsbildern, unterteilt in ein- 
deutig gelesene und zuruckgewiesene Leseergebnisse zwischen- 
gespeichert. 

10 Dann werden Klassen von Wortern oder zusammengehorenden Wort 
gruppen der zwischengespeicherten und zuruckgewiesenen Le- 
seergebnisse, bestehend jeweils aus n Adreftwortern, 
n = 1,2,..., a, mit den Wortabstanden m, m = 0,1,..., b, gebiT 
det, die bezogen auf jeweils einen bestimmten n- und m-Wert 

15 untereinander ein bestimmtes Ahnlichkeitsmaft nicht unter- 

schreiten. Mindestens Reprasentanten derjenigen Klassen, de- 
ren Haufigkeit einen festgelegten Wert uberschreiten, werden 
in das oder die Worterbucher der zugeordneten AdreJibereiche 
auf genommen . 

20 



Figur 1 
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